# 3. 划分训练集和测试集

#导入包
from sklearn.model_selection import train_test_split

# 特征和标签
X = df[['大小(cm)', '颜色编码']]  # 或使用 X_scaled
y = df['水果名称']

# 划分数据集（80%训练，20%测试）
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)